FAIR 原则 视角 下 我 国 科学 数据 管理 政策 研究 
一 一 以 国家 科学 数据 中 心 和 高 校 机 构 知 识 库 为 例 
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摘要 : [目的 /意义 ] 目前 ，FAIR 原则 的 理念 已 在 一 定 程度 上 显 性 或 隐 性 地 蕴含 在 我 国 科学 数 


据 管理 相关 政策 文件 中 ， 我 国 科学 数据 管理 政策 的 FAIR. 化 目前 处 在 何 种 程度 ， 在 FAIR 化 
过 程 中 有 何 特点 ， 未 来 应 在 何 处 继续 着 力 等 问题 琢 待 探究 。[ 方 法 /过 程 ] 本 文 以 国家 科学 数 
据 中 心 和 高 校 机 构 知 识 库 发 布 的 科学 数据 管理 相关 政策 文件 为 样本 , 运用 计量 统计 、 文本 挖 


据 等 方法 充分 揭示 其 内 外 部 特征 ， 并 提出 一 种 基于 “ 锚 点 词 "的 FAR 原则 到 政策 文本 对 齐 方 
法 ， 对 我 国 科学 数据 管理 政策 的 整体 FAIR 化 程度 与 特征 做 出 研判 。[ 结 果 / 结 论 ] 发 现 我 国 


科学 数据 管理 政策 对 FAIR 原则 的 总 体 匹配 程度 偏 低 、 对 FAIR 各 原则 的 关注 度 呈 三 个 层次 


的 阶梯 状 分 布 、 整 体 表现 出 一 种 “不 均衡 "的 状态 。 
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随 着 开放 科学 与 开放 获取 运动 [1] 的 兴起 与 发 展 ， 科 学 研究 加 速 向 数据 驱动 
型 的 第 四 范式 转变 , 科学 数据 已 经 成 为 最 有 价值 的 战略 资源 之 一 ， 是 科技 创新 的 


关键 要 素 并 会 带 来 社会 效益 [2]。 相 应 的 , 科学 数据 管理 与 共享 的 FAIR 原则 [3] 也 


已 成 为 被 国际 社会 广泛 接受 的 准则 之 一 。 国 内 对 FAIR 原则 的 引入 与 研究 方 兴 

艾 ,《 中 国 科学 院 科学 数据 管理 与 开放 共享 办 法 〈 试 行 )》 指 出 “科学 数据 应 按照 
分 等 级 、 可 发 现 、 可 访问 、 可 重用 的 原则 ， 适 时 向 院内 外 用 户 开放 共享 。[4]*《 新 
一 代 人 工 智能 伦理 规范 》 也 要 求 “提升 数据 的 完整 性 、 及 时 性 、 一 致 性 、 规 范 性 


和 准确 性 等 。 [5] nT UL, FAIR 的 理念 已 在 一 定 程 度 上 显 性 或 隐 性 地 
关 政 策 文 件 中 对 科学 数据 的 管理 规范 上 。 因 此 ， 我 国 科 学 数据 管理 


强 含 在 我 国 相 


政策 的 FAIR 


化 目前 处 在 何 种 程度 ， 在 FAIR 化 过 程 中 有 何 特点 ， 未 来 应 在 何 处 继续 着 力 以 对 
接 FAIR 原则 等 问题 , 都 是 在 整个 科研 数据 生态 体系 中 ,建立 方便 可靠、 可 测量 、 
可 验证 、 可 支持 FAIR 原则 的 数据 出 版 机 制 与 数据 共享 政 集 [6] 所 蝶 待 淤 清 的 。 


基于 此 ， 本 文 以 国家 科学 数据 中 心 ( 以 下 简称 “数据 中 心 ) 和 高 校 机 构 知 识 


库 《〈 以 下 简称 “机 构 知识 库 ? 发 布 的 科学 数据 管理 相关 政策 文件 为 样本 ， 在 充分 
了 解 其 内 外 部 特征 的 基础 上 ， 将 其 置 于 FAIR 原则 理论 框架 下 做 对 齐 分 析 ， 以 求 


对 我 国 科 学 数据 管理 政策 的 整体 FAIR 化 程度 与 特征 做 出 研判 ， 更 好 地 保障 科学 
数据 在 科研 活动 过 程 中 发 挥 纽带 和 基石 的 作用 [7]。 
2 相关 研究 回顾 与 简 评 

学 界 关 于 “科学 数据 ”的 概念 目前 并 未 形成 统一 意见 , 从 不 同 的 定义 基础 [8] 和 
相关 性 [9] 出 发 ， 形 成 了 多 样 化 的 命名 方式 ， 如 :“ 科 学 数据 (Scientific data)*“ 科 
研 /研究 数据 (Research data)*“ 科 技 数 据 (Scientific and technological data)” 等 。 
本 文选 取 的 研究 对 象 包括 数据 中 心 与 机 构 知 识 库 发 布 的 数据 政策 文件 , 两 者 均 有 
窗 盖 范围 广 、 使 用 类 型 多 样 等 特点 ， 因 此 我 们 采用 在 概念 内 涵 上 较为 宏观 的 “ 科 
学 数据 ?对 其 进行 指 代 ， 但 对 同行 学 者 的 参考 仍 保留 其 原 表述 。 

本 文选 用 中 国 知 网 作为 检索 工具 ， 在 “信息 科技 ”类 目下 ， 分 别 用 “科学 数据 
理 政策 “科研 数据 管理 政策 ”“ 研 究 数据 管理 政策 "以 及 “科技 数据 管理 政策 "为 
检索 词 进行 主题 检索 (检索 时 间 : 2021 年 8 月 24 日 )， 得 到 文献 110 篇 。 通 过 
逐 篇 阅读 的 方式 剔除 不 涉及 科学 数据 管理 政策 的 研究 以 及 部 分 质量 不 高 的 文献 ， 
最 终 确 定 了 95 篇 相关 文献 。 从 国内 已 有 的 论文 成 果 来 看 ， 对 科学 数据 管理 政策 
的 研究 通常 与 数据 权益 [10][11]、 数 据 素养 、[12][13] 数 据 共享 [14][15][16] 等 术语 
挂钩 ， 学 者 们 从 不 同 的 角度 切入 ,对 国内 外 各 类 机 构 发 布 的 科学 数据 管理 政策 进 
行 了 较为 深入 的 剖析 和 研究 ， 相 关 研 究 成 果 按 照 研究 方法 的 不 同 , 主要 有 三 种 类 
型 : 


mm 


(D 政策 解读 类 。 在 对 国内 科学 数据 管理 政策 的 研究 中 ， 以 《科学 数据 管 
理 办 法 》 为 样本 对 其 进行 解读 是 一 大 热点 ， 邢 文明 [17][18][19]、 高 瑜 亢 、[20] 白 
锐 [21] 等 对 政策 文本 内 容 进 行 了 详细 解读 ， 温 亮 明 [22]、 李 洋 [23] 等 对 其 落实 路 径 
与 现状 进行 了 分 析 与 探讨 。 同 时 ， 对 国外 相关 政策 的 介绍 、 梳 理 与 分 析 也 是 十 分 
活跃 ， 且 不 仅仅 局 限于 对 国外 政府 发 布 的 科学 数据 管理 政策 的 研究 ， 而 是 从 教育 
机 构 [24]、 科 研 资助 机 构 [25]、 科 学 联盟 [26] 等 不 同 的 角度 展开 探索 ， 为 我 国 科学 
数据 管理 政策 的 完善 建言 献策 ， 如 邢 文 明 等 27] 以 《科学 数据 管理 办 法 》 和 《 促 
进 联邦 资助 科研 成 果 获 取 的 备忘录 》 为 例 对 中 美 科学 数据 政策 进行 了 比较 研究 ， 
提出 建议 引入 科学 数据 开放 的 FAIR 原则 ， 以 确保 科学 数据 的 可 用 性 。 

(2) 调查 实证 类 。 我 国 的 科学 数据 管理 政策 应 与 国际 接轨 ， 对 国内 外 各 类 
型 利益 相关 者 进行 的 调查 实证 类 研究 正 是 迎合 了 这 样 一 种 需求 , 因而 该 类 型 的 研 
究 活 动 十 分 活跃 。 然而， 从 调查 主体 的 角度 对 比 来 看 ， 国 内 作为 调查 对 象 的 科研 
主体 则 略 显 单调 ， 大 部 分 的 研究 集中 在 高 等 院 校 [28][29]、 高 校 图 书馆 [30]、 机 构 


知识 库 [B31] 等 科研 机 构 领 域 ， 而 对 国外 科学 数据 管理 相关 主体 的 调查 ， 则 更 加 涵 
盖 了 科研 资助 机 构 [32]、 政 府 部 门 [33][34]、 出 版 集团 35]、 学 术 期 刊 [36][37] 等 各 
行 各 业 的 利益 相关 者 。 由 此 可 见 ， 仅 就 利益 相关 主体 而 言 ， 国 外 的 科学 数据 管理 
具有 更 为 广泛 的 现实 基础 与 配套 设施 , 这 更 提醒 我 们 无 论 是 在 科学 数据 管理 的 政 
策 制定 还 是 内 容 管理 方面 , 都 要 时 刻 注重 其 宏观 设计 , 将 科学 数据 管理 活动 作为 
一 个 多 方 参与 的 整体 进行 规划 与 研究 。 

(3) 专题 研究 类 。 科 学 数据 管理 政策 方案 的 出 台 是 对 科研 领域 数据 活动 需 
求 的 应 答 ， 因 此 ， 除 了 “ 自 上 而 下 ”地 提出 纲领 设计 之 外 ， 更 重要 的 是 对 各 领域 的 
科学 数据 管理 需求 进行 针对 性 的 专题 研究 ,“ 自 下 而 上 ”地 提出 适用 于 实际 需求 的 
解决 方案 。 如 李 芳 薇 等 关注 生物 医学 领域 的 科研 数据 仓储 [38] 与 科学 数据 管理 服 
务 [39]; 王 卷 乐 [40][41] 等 人 结合 对 全 球 11 个 方面 的 科学 数据 管理 态势 的 分 析 ， 
对 我 国 地 球 科 学 领域 的 科学 数据 管理 建设 进行 了 展望 ; 此 外 , 陈 廉 芳 认为 需要 建 
立 科学 数据 馆 员 制度 来 规范 和 促进 科学 数据 管理 的 发 展 [42]， 并 对 医学 领域 的 数 
据 馆 员 制 度 建设 进行 了 构想 。 学 者 们 结合 调查 实证 的 研究 方法 , 对 各 个 科研 细 分 
领域 的 科学 数据 管理 现状 与 需求 进行 了 深入 细致 的 分 析 , 提出 的 意见 与 方案 往往 
实用 价值 较 高 ， 因 此 这 应 该 是 未 来 科学 数据 管理 研究 的 一 大 热点 方向 。 

综 上 所 述 , 学 者 们 已 经 综合 运用 多 种 研究 方法 ， 从 不 同 视角 对 我 国 科学 数据 
理 政策 进行 了 研究 , 产 出 了 丰硕 的 学 术 成 果 。 但 是 纵 观 我 国学 者 对 国内 外 科学 
数据 管理 政策 的 研究 ,往往 由 于 缺乏 相应 的 、 完 善 的 、 来 源 于 实践 的 理论 作为 指 
导 与 借鉴 ， 从 而 难以 形成 契合 实际 的 、 接 受 度 高 的 、 泛 化 效果 好 的 普 适 性 方案 。 
文献 调研 表明 , 面向 科学 数据 管理 活动 整体 的 研究 已 有 一 定 基础 ， 如 周 玉 琴 等 调 
查分 析 了 国内 外 科研 数据 管理 与 共享 政策 体系 建设 的 理论 和 实践 现状 , 构建 了 一 
个 由 宏观 层面 的 法 律 法 规 、 中 观 层面 的 政策 规章 、 微观 层 面 的 管理 制度 构成 的 科 
研 数据 管理 与 共享 政策 体系 [43]， 薛 秋 红 等 通过 提炼 西方 国家 科学 数据 管理 政策 
的 核心 要 素 ， 试 图 构建 起 科学 数据 管理 政策 制定 的 基本 规范 [44]。 上 述 研究 为 本 
XH FAIR 数据 管理 原则 的 视角 下 ， 从 理论 整体 出 发 ， 审 视 和 考察 我 国 科 学 数据 
管理 相关 政策 , 挖掘 和 梳理 科学 数据 管理 核心 内 容 , 探测 和 提出 我 国 科 学 数据 管 
理 政策 调整 策略 提供 了 有 益 借鉴 。 

3 研究 设计 
3.1 数据 来 源 
2019 年 6 月 ， 科 技 部 、 财 政 部 公布 国家 科技 资源 共享 服务 平台 优化 调整 名 


mt 


单 ， 确 定 自然 科学 与 工程 技术 领域 的 20 个 国家 科学 数据 中 心 [45]， 这 些 数据 中 
心 主要 依托 科研 院 所 管理 运行 ， 组 成 了 我 国 科 学 数据 管理 与 服务 的 “国家 队 ? 20 
16 年 9 月 22 日 ,由 CALIS 管理 中 心 联 合 16 家 高 校 图 书馆 共同 发 起 成 立 了 中 国 
高 校 机 构 知 识 库 联 盟 (CHAIR)， 以 “推进 全 国 高 校 机 构 知 识 库 的 建设 ,推动 学 术 
成 果 的 开放 获取 , 促进 学 术 成 果 的 广泛 应 用 ”为 宗 则 [46]， 该 联盟 目前 已 注册 有 5 
1 家 会 员 机 构 ， 元 数据 总 量 2,868,428 条 。 本 文 以 网 络 调研 的 方式 对 20 家 数据 中 
心 以 及 51 家 机 构 知识 库 联 盟 成 员 网 站 展开 调查 ， 围 绕 “ 科 学 数据 管理 ”主题 对 其 
发 布 的 数据 政策 进行 仆 梳 剔 抉 ， 最 终 共 获 得 网 站 公开 发 布 的 数据 政策 (全文) 1 
02 部 ， 其 中 90 部 来 自 数据 中 心 ，12 部 来 自 机 构 知识 库 ， 调 查 时 间 为 2021 年 9 
月 10 日 至 18 日 。 

本 文选 取 数 据 中 心 和 机 构 知识 库 的 数据 政策 作为 研究 样本 , 主要 基于 两 方面 
的 原因 : 一 是 现 阶段 我 国 科学 数据 服务 是 以 研究 院 所 为 主 、 高 等 院 校 及 其 图 书馆 
为 辅 [47]， 因 此 以 二 者 为 依托 的 数据 平台 的 数据 政策 具有 较 强 的 代表 性 ， 对 其 进 
行 研究 有 助 于 我 们 把 握 我 国 科 学 数据 管理 政策 的 整体 发 展 态势 , 同时 便于 进行 对 
数据 政策 内 部 的 细 粒 度 分 析 ; 另 一 方面 , 数据 中 心 和 机 构 知 识 库 的 数据 政策 分 别 
代表 了 来 自 科 研 主 体 和 教育 主体 对 科学 数据 管理 的 理解 与 需求 , 在 第 四 科研 范式 
下 二 者 既 有 交集 也 有 差 集 , 对 其 内 容 进 行 深度 挖掘 与 分 析 可 以 使 我 们 更 好 地 认识 
到 二 者 的 相同 点 与 差异 性 ， 从 而 为 促进 不 同 科 学 数据 管理 主体 之 间 的 协同 发 展 、 
责任 共 担 提 供 借鉴 。 
3.2 研究 方法 

本 文 围绕 获取 到 的 科学 数据 管理 政策 文本 展开 了 两 个 方面 的 实证 研究 , 一 方 
面 是 数据 中 心 和 机 构 知 识 库 政策 文本 的 对 比 研究 ， 有 具体 分 为 三 个 步骤 。1) 对 政 
策 外 部 特征 进行 计量 统计 与 分 析 ， 包 括 文件 获取 情况 、 发 布 时 间 等 ， 主 要 用 到 了 
Excel. ECharts 等 工具 ; 2) 为 了 对 政策 文本 的 内 部 特征 进行 分 析 ， 对 数据 进行 预 
处 理 。 将 从 95 篇 “科学 数据 管理 政策 ”相关 文献 中 去 重 后 得 到 的 194 个 关键 词 作 
为 保留 词 ， 百度 停 用 词 表 作为 停 用 词 , 建立 起 用 于 对 切 词 内 容 进 行 清洗 的 用 户 词 
典 ，3) 运用 Python-jieba、 微 思 词 云 等 工具 ， 扫 描 政策 文本 中 的 高 频 词汇 ， 绘 制 
高 频 词 云图 ， 以 分 析 对 比 数据 中 心 与 机 构 知识 库 数 据 政策 的 关注 焦点 ， 并 初步 控 
测 其 FAIR 特征 。 

另 一 方面 是 FAR 原则 视角 下 我 国 科 学 数据 管理 政策 的 对 齐 分 析 。Wilkinso 
n 等 为 代表 的 “Go FAIR 指标 小 组 (Go FAIR Metric Group) 从 14 个 方面 制定 了 


覆盖 15 条 FAIR 原则 的 评估 量 表 ， 但 是 该 量 表 的 运用 ， 要 求 来 自 关 于 被 评估 团 
体 的 多 种 行动 信息 [48] 作 为 支撑 ,不 适用 于 本 研究 对 多 来 源 大 规模 文本 进行 内 容 
评估 的 需求 。 因 此 ， 本 文 提出 一 种 基于 “ 锚 点 词 [49]” 的 FAIR 原则 到 政策 文本 对 
齐 方法 ， 步 骤 如 下 : 1) 对 不 同 版 本 的 FAIR Jeu ECT ees dis In] CX 
系 、 相 关 关 系 等 为 每 条 FAIR 原则 赋予 或 从 中 析出 FAIR 锚 点 词 ; 2) 采用 字符 串 
匹配 的 方式 ,用 错 点 词 定 位 到 政策 文本 中 的 相关 句子 , 进行 语句 级 别 的 文本 对 齐 ; 
3) 对 锚 定 获得 的 语句 进行 语义 盘查 ， 去 除 形 同 义 不 同 的 “ 伪 锚 点 ”深入 到 语义 级 
别 的 文本 对 齐 ; 4) 最 后 将 对 齐 结果 按 机 构 进 行 统 计 整 理 ， 并 进行 可 视 化 表示 与 
分 析 讨 论 。 
4 研究 结果 与 讨论 
4.1 我 国 科学 数据 管理 政策 内 外 部 特征 统计 与 分 析 
4.1.1 文件 获取 情况 分 析 

由 调查 结果 可 知 ( 见 表 1 和 表 2): 1) 数据 中 心 重视 科学 数据 管理 政策 的 建 
设 ，90% 的 科学 数据 中 心 均 自行 制定 或 援引 了 相关 数据 管理 标准 或 政策 ， 且 能 够 
使 用 户 较 为 便捷 地 获取 到 (国家 对 地 观测 科学 数据 中 心 和 国家 材料 腐蚀 与 防护 科 
学 数据 中 心 除外 )， 最 终 共 从 18 家 数据 中 心 网 站 获取 到 了 90 部 相关 政策 文件 ， 
其 中 75 NB (83.3%) 能 获取 全 文 。2) 各 数据 中 心 对 科学 数据 管理 政策 建设 的 重 
视 程度 并 不 一 致 ， 有 的 出 台 了 系列 化 、 规范化 的 数据 政策 来 支持 科学 数据 管理 活 
动 全 过 程 的 顺利 展开 ， 如 国家 基因 组 科学 数据 中 心 、 国 家 农业 科学 数据 中 心 等 ; 
有 的 则 只 针对 用 户 提交 数据 流程 做 了 指导 与 说 明 ， 如 国家 空间 科学 数据 中 心 、 国 
家 青藏 高 原 科学 数据 中 心 等 。3) 机 构 知 识 库 数据 管理 政策 的 建设 现状 不 容 乐观 ， 
其 主要 原因 在 于 机 构 知 识 库 本 身 建设 状况 不 容 乐 观 。 尽管 本 文选 取 的 调查 样本 为 
中 国 高 校 机 构 知 识 库 联盟 的 51 家 成 员 机 构 ， 但 仍 有 33 家 (64.7%) 机 构 知识 库 
的 官方 网 站 没有 通过 公开 途径 被 访问 到 ， 其 中 17 家 “未 找到 网 站 16 家 “网 站 无 
法 访问 ? 在 能 够 正常 工作 的 机 构 知识 库 中 ， 有 8 家 (15.7%) 没有 获取 到 相关 政 
策 内 容 ， 其 中 3 家 “无 权限 访问 ”5 家 “无 相关 内 容 ? 最 后 仅 从 10 家 (19.6%) 机 
构 知 识 库 网 站 获取 到 了 12 部 相关 政策 文件 。 

K1 国家 科学 数据 中 心 科学 数据 管理 政策 获取 情况 一 览 表 


平台 名 称 政策 文件 名 


dl 
ak 
Ss 


1 ”国家 高 能 物理 高 能 物理 科学 数据 汇 交 管理 办 法 e 


科学 数据 中 心 高 能 物理 科学 数据 合作 共享 制度 e 
原始 组 学 数据 标准 e 
基因 组 数据 标准 e 
国家 基因 组 科 变异 组 数据 标准 9 
学 数据 中 心 转录 组 数据 标准 9 
表 观 遗传 数据 标准 e 
异 构 数据 索引 和 检索 整合 标准 e 
国家 微生物 科 
国家 微生物 科学 数据 中 心 数 据 库 访 问 协 议 e 
学 数据 中 心 
国家 空间 科学 HS 
y 、 空间 科学 数据 汇 交 指南 e 
数据 中 心 
HDF5 中 
普 适 图 像 传输 系统 (FITS) 9 
Resource Metadata for the Virtual Observatory e 
VOTable Format Definition e 
IVOA 唯一 标识 符 e 
ae IVOA 锥 形 检索 协议 ° 
国家 天 文科 学 m "vom 
E IVOA 简单 图 像 访 问 协议 e 
数据 中 心 rr 
IVOA 简单 光谱 访问 协议 e 
IVOA 表格 访问 协议 e 
IVOA 目标 可 见 性 简单 访问 协议 e 
天 文 数据 查询 语言 (ADQL) e 
基于 HEALPix HJ Z EKA 28 n Ub VE e 
多 层次 渐进 式 巡 天 图 e 
国家 对 地 观测 
- [9] 
科学 数据 中 心 
海洋 观测 规范 第 6 部 分 :数据 处 理 与 质量 控制 9 
E : (修订 稿 ) 
国家 极地 科学 "Hue HP -— 
e 水 深 测 量 数据 采集 与 处 理 技术 要 求 9 
IL? 
海洋 监测 规范 第 2 部 分 :数据 处 理 与 分 析 质 量 9 


控制 


海洋 声学 数据 共享 交换 格式 
数据 采集 和 处 理 规 范 


地 理 元 数据 信息 
科学 数据 管理 办 法 " 
海洋 信息 元 数据 9 
声学 多 普 勒 流速 剖面 仪 数据 存储 格式 9 
海洋 数据 应 用 记录 格式 9 
中 国 极地 考察 数据 管理 办 法 ; 
国家 极地 科学 数据 中 心 元 数据 标准 ° 
, Bus 汇 交 政策 
科学 数据 中 心 使 用 条 款 和 免责 申明 ° 
, ”国家 生态 科学 — . 
数据 中 心 
国家 材料 腐蚀 
10 与 防护 科学 数 - 5 
据 中 心 
国家 冰川 冻 土 ”中 国 特殊 环境 与 灾害 研究 网 络 数据 管理 与 共 
11 ”沙漠 科学 数据 享 条 例 征求 意见 稿 ) ° 
中 心 国家 冰川 冻 土 沙漠 科学 数据 中 心 数据 汇 交 协 议 — 。 
国家 计量 科学 数据 中 心 项 目 数 据 汇 交管 理 办 法 。 。 
,, 国家 计量 科学 。 国家 计量 科学 数据 中 心计 量 科研 数据 江 交 。 。 
数据 中 心 标准 规范 
国家 计量 科学 数据 中 心 数据 分 级 分 类 管理 办 法 。 。 
13 eee 数据 汇 交 标准 ° 
科学 数据 中 心 
国家 科技 基础 条 件 平台 资源 元 数据 核心 元 数据 
(征求 意见 稿 ) 
a 国家 人 口 健康 。 国家 人 口 健康 科学 数据 中 心 资源 核心 元 数据 。 。 
科学 数据 中 心 (征求 意见 稿 ) 
国家 人 口 健康 科学 数据 中 心 科技 资源 标识 符 规 。 。 


范 《 征 求 意见 稿 ) 


国家 人 口 健康 科学 中 心 仓储 元 数据 规范 e 
人 口 健康 科学 数据 共享 数据 集 分 类 与 编码 标准 
《征求 意见 稿 ) 
中 华人 民 共 和 国 数据 安全 法 e 
国家 健康 医疗 大 数据 标准 、 安 全 和 服务 管理 办 
法 试行 ) ° 
PHDA 数据 资源 收集 保藏 发 展 政策 e 
国家 人 口 健康 科学 数据 中 心 数 据 备 份 方案 e 
国家 基础 学 科 
15 ”公共 科学 数据 科学 数据 管理 与 服务 标准 规范 e 
中 心 
农业 科学 数据 采集 标准 编制 要 求 e 
农业 科学 数据 发 布 管理 规则 e 
农业 科学 数据 中 心 数据 服务 规范 e 
农业 科学 数据 质量 检查 与 控制 规范 e 
国家 农业 科学 P EE 
MN beide IRA e 
农业 科学 数据 公共 数据 元 标准 ° 
农业 科学 数据 汇 交 管理 办 法 e 
农业 科学 数据 集成 和 访问 规范 e 
农业 科学 数据 交换 格式 规范 e 
林业 科学 数据 元 数据 标准 (V3.10 版 ) e 
林业 科学 数据 集成 规范 (数据 整合 XV2.0) e 
林业 科学 数据 分 类 与 编码 (V1.0) e 
国家 林业 和 和 草 林业 专题 空间 数据 质量 控制 标准 e 
17) 原 科 学 数据 中 苞 漠 生态 系统 定位 站 观测 数据 规范 e 
心 林业 科学 数据 数据 字典 规范 e 
林业 科研 机 构 基 础 数据 规范 e 
科学 数据 共享 工程 质量 管理 规范 9 
科学 数据 中 心 〈 网 ) 运行 管理 规范 9 
国家 气象 科学 气象 数据 元 总 则 e 
数据 中 心 气象 探测 资料 汇 交 管理 办 法 e 


汇 交 指南 
国家 地 震 科学 数据 资源 手册 定稿 (2020 RO e 


地 震 科学 数据 共享 管理 办 法 
地 震 科学 数据 数据 发 布 规范 
地 震 科学 数据 共享 系统 运行 规范 , 
国家 地 震 科学 ii E 
. 地 震 科学 数据 数据 分 类 与 编码 è 
数据 中 心 | ^ 
数据 科学 数据 数据 元 目录 
地 震 科学 数据 数据 交换 格式 
地 震 科学 数据 数据 模式 编写 ; 
地 震 科学 数据 元 数据 编写 指南 ° 
科技 基础 性 工作 专项 项 目 科学 数据 汇 交 管理 办 
e 
法 (试行 ) 
国家 海洋 科学 数据 共享 服务 平台 建设 运行 管理 
e 


暂行 办 法 
国家 海洋 科学 科技 平台 资源 核心 元 数据 (GBT 30523-2014) e 
数据 中 心 工业 和 信息 化 部 关于 工业 大 数据 发 展 的 指导 意 


见 
涉 海 类 科技 计划 项 目 科 学 数据 汇 交 流程 与 规则 
说 明 
中 科 院 科学 数据 管理 与 开放 共享 办 法 


注 ，。 表 示 有 相关 文件 ， 且 能 获取 全 文 ， 刍 表示 有 相关 文件 ， 但 无 法 获取 全 文 ，o 表 示 无 相 
关 文 件 。 


表 2 高 校 机 构 知 识 库 科 学 数据 管理 政策 获取 情况 一 览 表 


B "m 获取 
平台 名 称 政策 文件 名 、 备注 
5 情况 


北京 大 学 机 构 知 误 库 开放 获取 


vl 政策 (试行) ° 
北京 大 学 机 构 知识 ” 
k 北京 大 学 机 构 知 识 库 推荐 文件 
e 


格式 
北京 大 学 机 构 知 识 库 提交 流程 e 
2 ”北京 化 工大 学 机 构 - o 未 找到 


知识 库 网 站 
, 北京 交通 大 学 机 构 未 找到 
知识 库 网 站 
F 北京 科技 大 学 机 构 网 站 无 
知识 库 法 访问 
; 北京 理工 大 学 机 构 无 相关 
知识 库 内 容 
北京 联合 大 学 机 构 无 相关 
知识 库 内 容 
北京 师范 大 学 学 术 ”北京 师范 大 学 学 术 成 果 库 开放 
成 果 库 获取 相关 说 明 
北京 邮电 大 学 机 构 网 站 无 
知识 库 法 访问 
重庆 大 学 机 构 知 识 未 找到 
库 网 站 
大 连理 工大 学 机 构 。” 大 连理 工大 学 机 构 知 识 库 平台 
知识 库 政策 
电子 科技 大 学 机 构 无 访问 
知识 库 权限 
东北 师范 大 学 机 构 未 找到 
知识 库 网 站 
东南 大 学 机 构 知 识 无 访问 
库 权限 
" 对 外 经 济 贸易 大 学 未 找到 
机 构 知 识 库 网 站 
- 福建 工程 学 院 机 构 未 找到 
知识 库 网 站 
- 哈尔滨 工业 大 学 机 无 相关 
构 知 识 库 内 容 
if 韩 山 师范 学 院 机 构 未 找到 
知识 库 网 站 


ie 湖北 民族 学 院 机 构 网 站 无 
知识 库 法 访问 
华东 师范 大 学 机 构 i ` 网 站 无 
知识 库 法 访问 
in 华南 理工 大 学 机 构 i s 未 找到 
知识 库 网 站 
T 华南 师范 大 学 机 构 n 未 找到 
知识 库 网 站 
华中 农业 大 学 机 构 i s 未 找到 
知识 库 网 站 
23 Tu CM 中 师范 大 学 智 汇 云 版 权 声明 ° 
知识 库 
" 兰州 大 学 机 构 知识 9 无 相关 
库 l 内 容 
" 辽宁 大 学 机 构 知 识 9 无 相关 
库 内 容 
南京 师范 大 学 机 构 i ` 未 找到 
知识 库 网 站 
南京 医科 大 学 机 构 ` 网 站 无 
知识 库 法 访问 
南京 艺术 学 院 机 构 ` 网 站 无 
知识 库 法 访问 
南开 大 学 机 构 知 识 ` 网 站 无 
库 法 访问 
内 蒙古 大 学 机 构 知 ` 网 站 无 
识 库 法 访问 
31 ”清华 大 学 学 者 库 清华 学 者 库 服务 . 
" 三 明 学 院 机 构 知 识 i 未 找到 
库 网 站 
- 厦门 大 学 学 术 和 典藏 厦门 大 学 学 术 典 藏 库 
库 CXMUIR) 相关 政策 (试行 ) 


山东 大 学 机 构 知识 


34 x: 山东 大 学 机 构 知 识 库 政策 ° 
" 山东 师范 大 学 机 构 ` 网 站 无 
知识 库 法 访问 
" 陕西 师范 大 学 机 构 s 未 找到 
知识 库 网 站 
上 海 交 通 大 学 机 构 i n 未 找到 
知识 库 网 站 
M 沈阳 师范 大 学 机 构 ` 网 站 无 
知识 库 法 访问 
四 川 大 学 机 构 知识 ` 网 站 无 
库 法 访问 
gy 0^ MUN 同济 大 学 机 构 知 识 库 版 权 说 明 。 。 
" 武昌 首义 学 院 机 构 ` 网 站 无 
知识 库 法 访问 
m 武汉 大 学 机 构 知 识 ”武汉 大 学 机 构 知 识 库 开 放 获 取 . 
库 相关 说 明 
武汉 华夏 理工 学 院 s 未 找到 
机 构 知 识 库 网 站 
" 西安 电子 科技 大 学 s 未 找到 
机 构 知 识 库 网 站 
" 西安 交通 大 学 机 构 ”西安 交通 大 学 机 构 知识 门户 开 
知识 库 放 获取 政策 
" 西北 工业 大 学 机 构 ` 网 站 无 
知识 库 法 访问 
is 西南 交通 大 学 机 构 s 未 找到 
知识 门户 网 站 
浙江 大 学 机 构 知 识 网 站 无 
库 法 访问 
49 ”中 国 海洋 大 学 机 构 - o 网 站 无 


知识 库 法 访问 


中 国 矿业 大 学 机 构 网 站 无 
知识 库 i ” 法 访问 
中 国人 民 大 学 机 构 o 无 访问 
知识 库 权限 


注 : e 表 示 访问 到 了 机 构 知 识 库 网 站 ， 且 获取 到 了 相关 内 容 ， 凡 表示 访问 到 了 机 构 知识 库 网 
站 ， 但 没有 获取 到 相关 内 容 ，o 表 示 没 有 访问 到 机 构 知识 库 网 站 。 
4.1.2 文件 发 布 时 间 分 析 

在 从 数据 中 心 和 机 构 知 识 库 获取 到 的 102 部 科学 数据 管理 相关 政策 文件 中 ， 
共有 72 部 文件 标明 了 发 布 时 间 ， 占 70.6%， 其 中 来 自 数据 中 心 的 有 69 部 ,来自 
机 构 知 识 库 的 有 3 部 。 对 数据 政策 发 布 时 间 分 布 特征 进行 分 析 可 知 〈 见 图 1): 
1) 获取 到 的 数据 政策 文件 最 早 可 追溯 至 2006 年 的 《海洋 数据 应 用 记录 格式 》， 
该 记录 获取 自 国家 极地 科学 数据 中 心 , 该 平台 对 相关 标准 规范 按 学 科 、 分 条 目 做 
了 详细 的 整理 著录 ; 2) 数据 政策 文件 发 布 高 度 集中 的 时 间 区 间 在 2016-2020 年 ， 
并 在 2019 年 左右 达到 峰值 ， 这 与 近年 来 从 知识 范式 到 数据 范式 的 数据 科学 发 展 
时 间 历 程 以 及 《科技 部 财政 部 关于 发 布 国家 科技 资源 共享 服务 平台 优化 调整 名 
单 的 通知 》 的 发 布 时 间 基 本 吻合 3) 结合 图 中 所 示 与 调研 情况 来 看 ， 数 据 政策 
的 发 布 数量 仍 有 一 定 的 上 升 空 间 。 如 国家 空间 科学 数据 中 心 的 数据 政策 栏目 正在 
建设 当中 , 国家 天 文科 学 数据 中 心 拟 制定 一 系列 的 天 文科 学 相关 数据 标准 规范 等 ， 
这 也 从 侧面 反映 出 了 科学 数据 管理 活动 的 茵 勃发 展 之 势 。 
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1 | 1 1 1 1 1 1 
| | | | | | | 
2006 2007 2008 2010 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 


图 1 政策 文件 发 布 时 间 分 布 图 

4.1.3 文件 发 布 渠道 分 析 

对 35 家 能 访问 到 的 数据 中 心 (20 家 ) 和 机 构 知 识 库 (15 家 ) 官方 网 站 的 科 
学 数据 管理 政策 发 布 渠道 进行 分 析 发 现 ，1) 20 家 数据 中 心中 ， 明 确 在 网 站 首页 
设置 数据 政策 或 标准 规范 栏目 并 将 其 集中 发 布 管理 的 有 7 家 〈 占 35%)， 设 置 了 
集中 发 布 管理 相关 数据 文档 专区 但 没有 明确 将 其 命名 为 政策 栏目 的 有 2 家 ( 占 1 
0%)， 其 余 11 BE CE 55%) 数据 中 心 网 站 均 无 明确 在 网 站 首页 专门 设置 数据 政 
策 栏目 ， 2) 15 家 机 构 知 识 库 中 ,专门 设置 了 政策 栏目 的 有 4 家 〈( 占 26.7%), 没 
有 明确 设置 政策 栏目 但 有 政策 文档 专区 的 有 6 家 (40%), 其 余 5 家 ( 占 33.3%) 
无 相关 栏目 ，3) 从 统计 数据 上 看 ， 机 构 知识 库 更 倾向 于 不 明确 设置 政策 栏目 而 
设置 政策 文档 专区 ， 常 见 的 命名 方式 有 “使 用 指南 "版 权 说 明 "服务 介绍 ?等 。 相 比 
于 数据 中 心 的 管理 角色 ,机构 知识 库 的 服务 性 更 强 ,， 且 多 数 机 构 知 识 库 是 依附 于 
高 校 图 书馆 建设 ， 作 为 特色 馆藏 而 存在 ， 如 北京 科技 大 学 、 东 南大 学 、 中 国 海洋 
大 学 等 ， 机 构 知识 库 的 独立 性 较 弱 ， 间 接 导 致 了 其 数据 政策 建设 意识 的 阙 如 。 


国家 微生物 科学 数据 中 心 ; 国家 极地 科学 数据 中 心 E 
加 家人 向 科学 提 中 心 | 国家 材料 腐蚀 与 防护 科学 数据 中 心 |i; 辽宁 大 学 
iE ; 国家 林业 和 草原 科学 数据 中 心 —( 清 4 


| 国家 地 需 科 学 数据 中 心 


; 国家 农业 科学 
; 国家 气象 科学 数据 中 心 


| 国家 基础 学 科 公 共 科学 数据 中 心 
数据 中 心 H 
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(a) 国家 科学 数据 中 心 Cb) 高 校 机 构 知 识 库 
2 政策 文件 发 布 渠道 分 析 图 

4.1.4 文件 来 源 渠道 分 析 

对 获取 到 全 文 的 75 部 数据 中 心 数据 政策 和 12 部 机 构 知 识 库 数 据 政策 的 来 
源 渠道 进行 分 析 发 现 : 1) 网 站 发 布 的 政策 文件 主要 来 源 于 三 个 方面 : 一 是 上 级 
政策 , 即 由 科技 部 等 政府 部 门 颁布 的 相关 法 律 法 规 、 平 台 托 管 机 构 发 布 的 各 项 管 
理 办 法 ， 如 《科学 数据 管理 办 法 》《 中 科 院 科学 数据 管理 与 开放 共享 办 法 》 等 ; 
二 是 领域 标准 ， 包 括 来 自 国内 外 的 学 科 内 部 已 有 的 通用 标准 或 行业 规范 , 如 国际 
虚拟 天 文 台 联盟 (The International Virtual Observatory Alliance, IVOA) 规范 系 
列 等 ; 三 是 平台 自 建 ， 即 由 平台 自身 制定 的 该 领域 相关 数据 标准 或 本 平台 数据 汇 
交流 程控 制 办 法 ， 如 《高 能 物理 科学 数据 合作 共享 制度 》《 空 间 科 学 数据 汇 交 指 
Fa) 9. 2) 统计 发 现 《〈 图 3): 从 数据 中 心 网 站 获取 到 的 75 部 数据 政策 中 ， 有 1 
3 部 (17.3%) 来 源 于 上 级 政策 ，32 部 (42.7%) 来 源 于 领域 标准 ，30 部 (40%) 
来 源 于 平台 自 建 ， 从 机 构 知 识 库 网 站 获取 到 的 12 部 数据 政策 均 属于 平台 自 建 。 
3) 对 比 来 看 ， 数 据 中 心 数据 管 理 政策 的 来 源 渠 道 更 广 、 规 范 化 程度 更 高 、 政 策 
内 容 更 为 详细 。 各 数据 中 心 的 数据 政策 建设 基本 遵循 “援引 + 自 建 " 的 模式 ， 即 援 
引 上 级 科学 数据 管理 规定 或 国际 领域 通用 标准 的 同时 , 积极 制定 各 自 领域 的 数据 
标准 或 建立 本 平台 数据 汇 交 流程 控制 办 法 。 如 国家 天 文科 学 数据 中 心 主要 援引 了 
国际 虚拟 天 文 台 联 盟 AVOA) 的 各 项 数据 标准 ， 同 时 拟 制定 的 标准 规范 包括 《天 
文科 学 数据 分 类 与 编码 入 《天 文科 学 数据 汇 交 规范 入 《天 文科 学 数据 质量 管理 规 


范 》 等 。 


3 政策 文件 来 源 渠 道统 计 图 

4.1.5 政策 内 容 热 点 分 析 

高 频 词 可 以 反映 出 科学 数据 管理 政策 关注 的 焦点 内 容 , 因此 我 们 深入 到 数据 
中 心 和 机 构 知 识 库 数据 政策 的 内 容 单 元 ， 挖 掘 出 其 中 的 高 频 词 〈 表 2 和 表 3) 并 
依据 高 频 词 表 绘 制 词 云 图 〈 图 4)， 通 过 两 相对 比 发 现 : 1) 二 者 对 “数据 ”本 身 的 
重视 程度 有 所 差别 。 数 据 中 心 将 “数据 ?” 摆 在 绝对 的 领导 地 位 “数据 ”一 次 出 现 的 
频次 断崖 式 远 超 其 他 词汇 ， 而 机 构 知 识 库 相对 来 说 则 更 加 重视 "成果 "作品 ”等 
为 宽泛 的 内 容 , “数据 ”一 词 的 词 频 仅 排 在 第 四 。2) 从 显 性 特征 来 看 ， 数 据 中 心 的 
数据 政策 表现 出 了 较 强 的 学 科 领 域 特征 ， 如 “地 震 " 观 测 * 科 技 ” 等 词汇 出 现 频次 较 
T. 这 也 说 明了 不 同 领域 的 数据 政策 建设 的 完善 程度 不 一 , 如 国家 地 震 科 学 数据 
中 心 的 标准 规范 相对 更 加 健全 ， 内容 更 加 丰富 全 面 ; 而 机 构 知 识 库 的 数据 政策 则 
更 多 地 揭示 了 平台 的 功能 定位 特征 ， 如 “作者 "我 校 " 存 储 " 提 交 ” 等 词汇 占 比较 大 ， 
体现 了 机 构 知 识 库 平台 作为 供 本 校 师 生 使 用 的 高 校 自 有 学 术 成 果 存 储 平台 的 核 
心 价值 。3) 从 关注 重点 上 看 ， 数 据 中 心 更 加 注重 规范 管理 ， 呈 现 出 “国家 "单位 ” 
“ 台 站 "中 心 "项 目 ”* 等 的 分 级 管理 制度 ， 突 出 “管理 "服务 ”等 内 容 ， 最 终 达 到 “科学 
数据 共享 ”的 目的 ， 而 机 构 知 识 库 的 数据 政策 更 多 地 涉及 开放 获取 相关 内 容 ， 以 
“授权 "协议 "许可 ”等 方式 ， 将 成 果 “ 提 交 者 * 高 校 “ 图 书馆 ?等 各 方 主体 融合 ， 打 
造 以 “保存 ”为 主 的 ,可 供 “ 免 费 ” 获 取 的 知识 交流 平台 。4) 初步 考察 数据 政策 的 Ff 
AIR 特征 发 现 ， 数 据 中 心 和 机 构 知识 库 的 数据 政策 均 在 一 定 程 度 上 显露 出 了 FA 
IR 特征 , 但 侧重 点 有 所 不 同 。 数据 中 心 更 注重 对 数据 的 标识 、 描 述 与 引用 CFI. 
F2、I3)， 而 机 构 知 识 库 则 把 中 心 放 在 “协议 ”“ 许 可 ”授权 ”Al.1、A1.2、R1.2) 
上 上， 突出 成 果 的 可 访问 和 可 重用 。 详 见 表 3 K 4。 

表 3 国家 科学 数据 中 心 科 学 数据 管理 政策 高 频 词汇 表 (TOP60) 


DR 
ud 


序号 词语 词 频 序号 wie WA 序号 词语 词 频 
1 数据 — 6478 21 科技 488 41 服务 324 
2 地 震 1803 22 值 域 488 42 记录 324 
3 信息 1252 23 FZE 476 43 描述 322 
4 代码 1040 24 原始 数据 469 44 机 构 314 
5 名 称 1002 25 版 本 号 461 45 台 站 302 
6 资源 993 26 A 460 46 定义 300 
7 ”科学 数据 964 27 基础 446 47 管理 297 
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文本 
数据 类 型 
自由 
观测 
单位 


格式 
国家 


词语 
成 果 
作品 
作者 
数据 


ARS 


提交 
存储 
提供 
内 容 
机 构 知 识 库 
我 校 
机 构 
学 者 
IR 
保存 


864 
814 
806 
789 
692 
660 
648 
638 
621 
537 
520 
502 
489 


28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 


ik: 加 粗 部 分 为 FAIR 相关 词语 。 
HE 4 高 校 机 构 知 识 库 科 学 数据 管理 


人 
包括 
选项 


词 频 序号 词语 
233 21 目的 
142 22 知识 
117 23 权利 
12 24 ”提交 者 
93 25 信息 
89 26 资源 
84 27 格式 
82 28 科研 
78 | 29 方式 
78 30 许可 
77 — M 系统 
75 32 协议 
70 33 长 期 
67 34 情况 
66 35 相关 


411 48 日 期 
407 49 ”科学 数据 共享 
394 50 数据 库 
389 51 扩展 
386 52 标识 
380 53 共享 
376 54 类 型 
347 55 引用 
344 56 发 布 
343 57 提供 
339 58 GB 
334 859 研究 
334 60 中 心 
政策 高 频 词 汇 表 (TOPO) 
词 频 ”序号 词语 
52 41 论文 
44 42 图 书馆 
43 43 推荐 
43 44 门户 
40 45 免费 
39 46 传播 
38 | 47 形式 
36 48 PKU 
35 49 访问 
34 50 保留 
34 51 撤回 
33 52 部 门 
32 53 XJTU 
31 54 Academic 
31 55 Hub 


296 
295 
274 
272 
263 
262 
260 
252 
252 
242 
240 
237 
235 


词 频 
27 
27 
27 
PA 
26 
26 
26 
25 
25 
25 
24 
24 
24 
24 
24 


16 政策 64 36 授权 30 56 包括 23 


17 全 文 60 37 存档 30 57 永久 23 
18 获取 57 38 开放 30 58 SDU 23 
19 用 户 56 ”39 文件 格式 28 59 北京 大 学 ”22 
20 版 权 54 40 管理 27 | 60 本 人 22 


YE: 加 粗 部 分 为 FAR 相关 词语 。 
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109 8 aso te Tee Ties oe 林业 二 协议 coy, m St D Se ER. 
Wn x em 中 心 Ift ie & ps qm SB Gu SDU WIN pic E eo pig EM Policies 
^n sel «sins ee um BS uot ETH eed EE umEnzcsxvm U^ 
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=p] PL m As ` 
(a) 国家 科学 数据 中 心 Cb) 高 校 机 构 知 识 库 


图 4 高 频 词 词 云图 CTOP200) 

4.2 FAIR 原则 视角 下 我 国 科学 数据 管理 政策 的 对 齐 分 析 
4.2.1 FAIR 锚 点 词 表 

锚 点 词 是 用 于 定位 FAIR 原则 文本 与 政策 文本 ， 具 有 特征 明显 、 状 识 度 高 、 
涵盖 性 强 等 特点 的 词语 。FAIR 原则 的 原文 是 英文 形式 ， 目 前 国内 学 者 对 其 进行 
的 评介 有 几 种 不 同 的 译文 版 本 [50][51][52][53]， 通 过 对 其 进行 分 析 比 对 、 凝 聚 提 
炼 ， 我 们 根据 同 义 关 系 为 FAIR 原则 的 四 条 总 原则 赋予 锚 点 词 ， 并 根据 相关 关系 
从 FAIR 原则 的 十 五 条 子 原则 中 析出 锚 点 词 , 从 而 得 到 了 FAIR f eii] CK 5). 
需要 说 明 的 是 : 1) 国家 基因 组 科学 数据 中 心 和 国家 天 文科 学 数据 中 心 的 相关 政 
策 文本 为 英文 形式 ， 所 以 我 们 直接 从 FAIR 原则 原文 中 析出 锚 点 词 ， 即 表 中 加 粗 
的 部 分 ，2) FAIR 子 原 则 的 Al 和 RT 原则 分 别 是 对 Al.1、Al1.2 M R11, R12, 
R1.3 的 概括 性 说 明 , 因此 没有 特别 析出 锚 点 词 来 进行 匹配 , 其 对 齐 程度 可 由 其 包 
含 的 子 原则 反映 出 来 。 


表 5 FAIR HAR 
FAIR 原 、 ee 
" 同 义 锚 点 词 FAIR 子 原则 相关 锚 点 词 
Uu 
可 发 现 Fl:(Meta)data are assigned a globall 标识 符 
Findable 


可 查找 y unique and persistent identifier ”唯一 标识 


可 检索 
查询 


可 获取 

可 访问 

可 存 取 
存储 
储存 


Accessible 


可 交互 


可 互 操 作 


可 融合 
可 整合 
理解 


阅读 


Interoper 


able 


识别 


可 重用 
再 利用 
重复 使 用 
再 用 


Reusable 


F2:Data are described with rich me 
tadata (defined by R1 below) 
F3:Metadata clearly and explicitly i 
nclude the identifier of the data th 
ey describe 
F4:(Meta)data are registered or inde 
xed in a searchable resource 
Al:(Meta)data are retrievable by the 
ir identifier using a standardised co 
mmunications protocol 
Al.1:The protocol is open, free, an 
d universally implementable 
A].2: The protocol allows for an a 
uthentication and authorisation pro 
cedure, where necessary 
A2:Metadata are accessible, even w 
hen the data are no longer availabl 
e 
I1:(Meta)data use a formal, accessib 
le, shared, and broadly applicable la 
nguage for knowledge representati 


on 


I2:(Meta)data use vocabularies that 


follow FAIR principles 


I3:(Meta)data include qualified refer 
ences to other (meta)data 
R1: (Meta)data are richly described 
with a plurality of accurate and rel 
evant attributes 


R1.1:(Meta)data are released with a 


元 数据 


标识 符 


仿 索 


协议 


T 


身份 验证 
授权 


长 期 保存 


知识 表示 
知识 组 织 


术语 系统 
词 表 
本 体 


引用 


使 用 许可 


再 次 使 用 | clear and accessible data usage lice 


nse 


R1.2:(Meta)data are associated with 


detailed provenance 


R1.3:(Meta)data meet domain-releva 


nt community standards 


数据 来 源 


领域 标准 


4.2.2 FAIR 原则 到 政策 文本 对 齐 


如 前 所 述 ，FAIR 原则 到 政策 文本 的 对 齐 可 从 语句 和 语义 两 个 层级 ， 分 别 结 


合 FAIR 总 原则 和 子 原则 ， 共 四 个 方面 展开 ， 即 FAR 总 原则 到 政策 文本 的 语句 
对 齐 及 其 语义 对 齐 ，FAIR 子 原则 到 政策 文本 的 语句 对 齐 及 其 语义 对 齐 。 以 FAIR 
总 原则 中 的 Findable 为 例 ， 将 “可 发 现 ” 作 为 锚 点 词 ， 在 语句 对 齐 阶段 ， 共 定位 到 
5 个 相关 语句 ; 深入 到 语义 层面 分 析 发 现 ， 其 中 4 个 为 真 锚 点 相关 语句 ，1 个 为 


伪 锚 点 相关 语句 〈 见 表 6)。 对 其 他 锚 点 词 的 定位 与 筛选 方法 同 下 


E 需要 说 明 的 


是 ， 对 于 一 些 语义 明确 的 锚 点 词 如 “元 数据 "标识 符 ” 等 ， 其 作为 专 有 名 词 内 涵 清 


晰 且 少 有 歧义 ， 则 一 般 不 再 进行 语义 级 别 的 第 查 。 


K 6 FAIR 原则 到 政策 文本 对 齐 示 例 


FAIR 总 原则 对 应 政策 文本 


科学 数据 应 按照 高 能 物理 科学 数据 中 心 数 据 汇 
交 要 求 的 标准 规范 加 工 处 理 ， 确 保 汇 交 科学 数 
WRA TRE ALBEE AY BES 
科技 计划 项 目 所 汇 交 的 科学 数据 应 按照 相关 科 


学 数据 汇 交 要 求 的 标准 规范 加 工 处 到 


E. dj 


TRE 


4m TRA. MARL. np PRE AY HES FI) AD 
科学 数据 应 按照 分 竺 级、 本 发 更 、 可 访问 、 可 
重用 的 原则 ， 适 时 向 院内 外 用 户 开放 共享 
TRE: 每 个 数据 集 都 应 被 赋予 符合 国家 标 
准 、 唯 一 且 长 期 不 变 的 标识 符 ， 并 配 有 规范 

的 元 数据 描述 ， 易 于 发 现 和 定位 。 
投稿 指南 : WHAM ST, AAR 
对 机 构 比 较 友 好 的 期 刊 清单 ， 进 而 提升 机 构 教 


Findable 
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4.2.3 对 齐 结果 可 视 化 分 析 

FAIR 原则 到 政策 文本 对 齐 的 矩阵 热力 图 描述 了 我 国 18 家 数据 中 心 和 10 家 
机 构 知 识 库 科学 数据 管理 政策 的 FAIR 化 程度 及 其 分 布 情况 。 如 图 5、 图 6 所 示 ， 
每 一 个 矩阵 元 素 中 的 数字 代表 该 机 构 政策 文本 匹配 到 对 应 FAIR 原则 锚 点 词 的 次 
数 ， 颜 色 代 表 匹 配 强 弱 程度 ， 次 数 越 多 ， 匹 配 程 度 越 强 ,颜色 越 深 。 日 为 提高 颜 
色 映 射 效 果 ， 我 们 根据 次 数 最 高 值 将 次 数 分 段 进一步 划分 为 5 个 区 域 ， 如 在 FA 
IR 总 原则 的 对 齐 中 ， 次 数 最 高 值 为 44， 那 么 0-9 次 则 为 低 匹 配 程 度 区 域 ，10-18 
次 为 较 低 匹 配 程度 区 域 ，19-27 次 为 中 匹配 程度 区 域 ，28-36 次 为 较 高 匹配 程度 
区 域 ，37-45 次 为 高 匹配 程度 区 域 ，FAIR 子 原则 的 对 齐 同 理 。 这 样 可 以 使 次 数 分 
段 区 域内 颜色 相近 , 而 区 域 间 颜 色差 异 显 著 , 从 而 突出 匹配 程度 , 减少 视觉 杂乱 。 
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5 FAIR 总 原则 到 政策 文本 对 齐 和 矩阵 热力 图 


纵 观 FAIR 原则 到 政策 文本 对 齐 的 概况 , 不 难 发 现 : 1) 我 国 的 科学 数据 管理 
政策 中 已 经 萤 含 着 一 些 FIAR 基础 理念 ， 但 是 总 体 匹 配 程度 偏 低 。 总 体 来 看 ，FA 
IR 的 四 条 原则 在 政策 文本 中 均 有 提 及 ， 并 无 遗漏 现象 ， 但 是 大 多 数 仍 处 于 无 匹 
配 、 低 匹配 和 较 低 匹配 的 状态 , 尚未 形成 系统 化 、 组 织 化 和 显 性 化 的 FAIR 思想 。 
2) 从 FAIR 原则 的 纵向 匹配 现状 可 以 看 出 ， 政 策 本 文中 对 FF 和 A 原则 关注 较 多 
而 对 I 和 R 原则 涉及 较 少 。 可 发 现 是 实现 数据 FAIR 化 的 基础 [54]， 而 可 获取 是 
数据 重用 的 前 提 条 件 之 一 ,对 这 两 者 的 关注 是 科学 数据 迈 向 FAIR 化 的 必由之路 ， 
由 此 可 见 ， 我国 的 科学 数据 管理 FAIR 化 尚 处 于 起 步 阶 段 ， 政 策 方面 还 有 待 进 一 
步 深入 完善 。 3) 从 机 构 的 横向 对 比 情况 可 以 发 现 ,数据 中 心 政策 文本 对 FAIR 原 
则 的 整体 匹配 程度 要 优 于 机 构 知 识 库 , 但 二 者 侧重 有 所 不 同 。 大 部 分 数据 中 心 的 
政策 文本 涉及 到 了 两 条 及 以 上 的 FAIR 原则 , 多 数 还 是 集中 在 基础 的 FE 和 A 原则 
E, 少数 如 国家 地 震 科学 数据 中 心 、 国 家 农业 科学 数据 中 心 已 注意 到 了 I 原则 的 
重要 性 ，FAIR 化 程度 相对 较为 理想 ; 而 机 构 知 识 库 一 般 只 履 盖 到 了 一 或 两 条 FA 
IR 原则 ， 且 集中 在 A 原则 上 ， 对 其 他 原则 尤其 是 R 原则 的 关注 不 够 ， 这 种 情况 
反映 出 机 构 知 识 库 对 开放 获取 运动 较 强 的 促进 作用 , 但 若 要 达到 科学 数据 开放 共 
享 的 标准 ， 则 还 需 向 FAIR 原则 的 其 他 方向 多 做 拓展 。 
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图 6 FAIR 子 原则 到 政策 文本 对 齐 和 矩阵 热力 
深入 到 对 FAIR 子 原 则 到 政策 文本 对 齐 矩 阵 热 力图 的 观察 发 现 ， 我 国 科学 数 
据 管理 政策 对 FAIR 原则 的 关注 程度 呈 阶 梯 状 分 布 ， 且 显著 地 分 为 三 个 层次 : 
1) 对 FF 原则 高 度 关注 ， 形 成 以 “高 原 山 地 ”为 主 的 第 一 阶梯 。F 原则 主要 包 
含 了 三 个 方面 内 容 : 元 数据 、 标 识 符 以 及 可 检索 。 政 策 文 本 对 下 原则 的 关注 集中 


在 F2 原则 上 ， 即 用 丰富 的 元 数据 来 描述 数据 。 元 数据 是 关于 数据 的 数据 ， 对 数 
据 进 行 管理 鲜 有 不 提 及 元 数据 的 。 对 元 数据 的 规定 越 详 细 , 则 对 数据 的 管理 越 规 
范 、 越 便利 ， 因 此 FAIR 子 原则 到 政策 文本 匹配 次 数 的 “山地 ”最 高 峰 也 出 现在 FF 
2 E; 其 次 是 对 标识 符 的 规定 ，F1 原则 要 求 为 数据 赋予 全 局 唯一 且 持 久 的 标识 
符 ，F3 原则 要 求 标识 符 包 含 在 元 数据 中 ， 均 是 围绕 标识 符 对 数据 做 出 要 求 ， 因 
此 政策 文本 对 这 两 条 原则 的 匹配 情况 较为 一 致 ， 最 后 是 F4 原则 要 求 数据 在 可 检 
索 的 资源 中 进行 注册 ,从 图 上 看 , 政策 文本 对 该 原则 的 匹配 程度 不 如 FF 原则 的 其 
他 三 条 , 但 是 需要 指出 的 是 ,国家 科学 数据 中 心 和 高 校 机 构 知 识 库 本 身 即 是 用 于 
注册 、 提 交 和 检索 数据 的 平台 。 因 此 无 论 从 文本 本 身 还 是 实践 情况 来 说 ，F 原则 
在 我 国 的 科学 数据 管理 活动 中 都 是 有 广泛 基础 的 。 

2) 对 A 原则 较为 关注 ， 形 成 以 "平原 丘陵 "为 主 的 第 二 阶梯 。A 原则 从 数据 
的 通信 交流 (协议 、 里 份 验证 ) 和 长 期 保存 两 方面 做 出 规定 。 从 图 6 中 可 以 看 出 ， 
政策 文本 对 A 原则 的 对 齐 分 布 比较 平均 ， 但 是 大 部 分 停留 在 低 程度 的 匹配 上 。 
相 比 较 而 言 ， 数 据 中 心 与 机 构 知 识 库 在 数据 的 通信 交流 方面 形成 了 各 自 的 “丘陵 
地 带 ” 数 据 中 心 侧重 于 通过 协议 交流 数据 , 而 机 构 知 误 库 强调 对 用 户 的 喘 份 验证 
与 作者 授权 ; 在 数据 的 长 期 保存 方面 ,机构 知识 库 的 对 齐 情况 要 略 优 于 数据 中 心 。 
形成 这 种 差异 的 主要 原因 在 于 二 者 的 服务 对 象 和 功能 定位 不 同 , 数据 中 心 旨 在 面 
向 广大 科研 人 员 提 供 数据 服务 ， 采 用 协议 的 方式 进行 数据 交流 更 为 便捷 有 效 ， 而 
机 构 知 识 库 更 倾向 于 助力 本 校 科 研 成 果 的 开放 获取 , 因此 更 重视 数据 成 果 知 识 产 
权 的 认证 与 保护 ， 以 及 对 成 果 的 长 期 保存 。 

3) 对 工 原则 和 及 原则 缺乏 关注 ， 形 成 了 以 “丘陵 盆地 ”为 主 的 第 三 阶梯 。I 原 
则 通过 对 数据 的 形式 表示 和 限定 引用 的 控制 来 促进 数据 交互 , R 原则 描述 了 数据 
重用 所 需要 的 一 系列 相关 属性 ， 包 括 使 用 许可 、 数 据 来 源 、 领 域 标准 等 。 从 图 上 
可 以 看 出 , 政策 文本 对 I 和 RR 原则 的 对 齐 状况 不 其 乐观 , 呈现 出 大 部 分 无 还 配 的 
“盆地 ?地 区 , 尤其 是 对 数据 的 形式 表示 、 使 用 许可 、 领 域 标准 几 个 方面 很 少 涉及 ; 
但 是 部 分 机 构 政策 对 数据 的 限定 引用 和 数据 来 源 有 所 关注 ， 形 成 了 为 数 不 多 的 
“丘陵 "地带 。 限 定 引 用 是 数据 交互 的 常见 形式 ， 明 确 数据 来 源 是 数据 重用 的 内 在 
BOK, FUER IL, 我 国 数据 政策 在 可 互 操 作 和 可 重用 方面 的 关注 仍 停留 在 较 浅 层 
面 ， 而 对 深层 次 的 数据 组 织 方面 的 内 容 ， 如 数据 本 身 的 表示 形式 、 背 后 所 使 用 的 
领域 标准 等 ， 则 还 有 进一步 提升 的 空间 。 
结合 FAIR 总 原则 和 子 原则 到 政策 文本 对 齐 和 矩阵 热力 图 来 看 ， 可 以 发 现 我 国 


科学 数据 管理 政策 的 FAIR 程度 整体 表现 出 一 种 “不 均衡 ”的 状态 ， 这 种 “不 均衡 ” 
状态 表现 为 三 个 方面 : 

一 是 政策 文本 包含 的 FAIR 理念 与 实际 的 FAIR 表述 之 间 存 在 差距 。 从 图 上 
可 以 看 出 , FAIR 总 原则 锚 点 词 对 政策 文本 的 锚 定 效果 相 比 于 子 原则 锚 点 词 要 差 ， 
在 机 构 知 识 库 向 F 原则 的 对 齐 上 可 见 一 斑 。 这 种 情况 说 明 我 国 的 科学 数据 管理 
政策 中 已 经 孕育 出 一 定 的 FAIR 理念 ， 只 是 在 具体 的 文字 表述 上 尚未 与 FAIR 原 
则 接轨 ， 需 要 进一步 加 强 对 FAIR 原则 的 理解 与 实施 [55]。 

二 是 政策 文本 在 四 条 原则 上 表现 出 的 匹配 程度 不 均 。 这 一 点 FAIR 总 原则 与 
子 原则 的 调查 结果 一 致 ， 我 国 科学 数据 管理 政策 在 向 FAIR. 四 条 原则 的 对 齐 程 度 
上 呈现 出 依次 递减 的 趋势 。 这 种 趋势 既 符合 FAIR 各 条 原则 本 身 逐 渐 深 入 最 终 达 
到 可 重用 目的 的 逻辑 架构 ， 也 反映 出 了 我 国 科 学 数据 管理 与 共享 的 FAIR 化 程度 
正 处 于 起 步 阶段 的 现实 情况 。 

三 是 机 构 内 部 之 间 的 FAIR 化 程度 不 一 ， 包 括 数据 中 心 与 机 构 知 识 库 之 间 ， 
各 数据 中 心 之 间 以 及 各 机 构 知 识 库 之 间 的 不 均衡 。 相对 来 说 , 数据 中 心 整体 的 数 
据 政 策 FAIR. 化 程度 要 优 于 机 构 知 识 库 ， 但 同时 数据 中 心 内 部 各 机 构 的 FAIR. 化 
程度 差异 要 大 于 机 构 知 识 库 。 国 家 科学 数据 中 心 本 身 是 为 了 推动 科学 数据 等 科技 
资源 的 开放 共享 ， 该 主 由 与 FIAR 原则 的 理念 更 为 接近 ， 但 是 不 同 领域 的 数据 中 
心 依托 于 各 自行 业 的 研究 机 构 而 存在 , 数据 政策 建设 进度 不 一 , 这 将 形成 阻碍 数 
据 交 互 的 数据 孤岛 , 为 交叉 学 科 的 研究 带 来 不 利 影响 ; 而 机 构 知 识 库 借助 中 国 高 
校 机 构 知 识 库 联盟 这 一 行业 组 织 , 遵守 统一 的 相关 政策 、 平 台 系 统 、 标 准 规范 等 ， 
有 明确 的 建设 方向 与 目标 ， 总 体 FAIR 程度 也 较为 趋同 。 因 此 ， 数 据 中 心 或 可 借 
鉴 这 种 模式 ， 积 极 推动 数据 政策 的 统一 建设 ， 提 高 整体 数据 FAIR 化 程度 ， 促 进 
各 中 心 、 各 行业 、 各 领域 之 间 的 数据 交流 共享 。 

5 结语 

本 文 在 全 方位 、 多 角度 了 解 我 国 科 学 数据 管理 政策 内 外 部 特征 的 基础 上 , 提 
出 了 一 种 基于 “ 锚 点 词 ” 的 FAIR 原则 到 政策 文本 的 对 齐 方法 , 综合 运用 特征 统计 、 
可 视 化 分 析 等 手段 ， 得 到 以 下 主要 结论 : 

从 总 体 对 齐 结果 来 看 , 我 国 科 学 数据 管理 政策 中 己 经 蕴含 着 一 些 FIAR 基础 
理念 ,但 是 总 体 匹 配 程度 偏 低 ; 综合 每 条 FAIR 细则 的 匹配 程度 来 看 ， 我 国 科 学 
数据 管理 政策 对 FAIR 原则 的 关注 程度 呈 阶 梯 状 分 布 ， 且 显著 地 分 为 三 个 层次 ， 
HJ: 对 F 原则 高 度 关 注 ， 对 A 原则 较为 关注 ， 对 工 原则 和 及 原则 缺乏 关注 ; A 


观 我 国 科 学 数据 管理 政策 的 FAIR 程度 , 发 现 其 整体 表现 出 一 种 “不 均衡 ”的 状态 
表现 在 三 个 方面 : 一 是 政策 文本 包含 的 FAIR 理念 与 实际 的 FAIR 表述 之 间 存 在 
差距 , 二 是 其 次 是 政策 文本 在 四 条 原则 上 表现 出 的 匹配 程度 不 均 , 三 是 最 后 是 机 
构 内 部 之 间 的 FAIR 化 程度 不 一 。 
同时 ， 本 研究 也 具有 一 定局 限 性 。 一 是 在 研究 过 程 中 , 笔者 虽 不 拘泥 于 平台 

网 站 ,并 试图 从 其 他 来 源 获 取 政 策 文 件 全 文 , 但 最 终 无 法 获取 全 文 的 情况 仍 无 可 
避免 ， 这 虽然 一 定 程度 上 是 由 于 平台 建设 存在 短 板 , 但 也 使 得 本 文 研 究 结果 与 真 
实情 况 或 许 存在 一 定 偏 差 , 未 能 完全 还 原 我 国 科 学 数据 管理 政策 的 FAIR 化 面貌 ; 
二 是 利用 FAIR 锚 点 词 表 进 行 字符 串 匹 配 的 方式 只 能 探测 出 语义 较为 明确 的 、 表 
述 相对 成 熟 的 FAIR 语句 ， 而 无 法 对 某 些 语义 相同 而 表述 各 异 的 FAIR 锚 点 进行 
抓 取 、 归 纳 与 分 析 ， 这 为 我 们 对 政策 文本 FAIR 化 特征 与 程度 的 研判 造成 了 一 定 
障碍 。 这 些 将 是 未 来 值得 深入 研究 和 继续 探索 的 重点 。 
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